home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / inet / ietf / mtudisc / mtudisc-minutes-90feb.txt < prev    next >
Text File  |  1993-02-17  |  14KB  |  305 lines

  1.  
  2.  
  3. CURRENT_MEETING_REPORT_
  4.  
  5.  
  6. Reported by Jeffrey Mogul/DEC
  7.  
  8. AGENDA
  9.  
  10.      (a) Report on current draft (McCloghrie/Fox/Mogul)
  11.      (b) Review other alternatives
  12.      (c) Review goals and assumptions
  13.      (d) Obtain consensus on approach
  14.      (e) Focus on details
  15.      (f) What next?
  16.  
  17. MINUTES
  18.  
  19. This was the second meeting of the MTU Discovery Working Group.
  20.  
  21. We started with a quick presentation by Keith McCloghrie of the draft
  22. that he and Rich Fox wrote based on the apparent consensus of the
  23. December meeting.  Some attendees had not read the draft, and we tried
  24. to ensure that everyone understood the basic outline.  [Summary:
  25. senders occasionally attach an IP PTMU-Query Option to their datagrams.
  26. Routers update the PMTU value in the option; the last-hop router returns
  27. the PMTU to the sender using the ICMP Path-MTU message.  If the
  28. destination host detects a change in the MTU (when a fragment is
  29. received), it sends an ICMP Unexpected Fragment Report message.]
  30.  
  31. We also reviewed the "Steve Deering" proposal from last year, as there
  32. was a realization that it might not be dead, after all.  Among other
  33. things, we now know that there are not 1 but 4 spare bits in the IP
  34. header (there are 3 unused in the TOS field), and that the powers that
  35. be might therefore be likely to let us use one.  [Summary of Deering
  36. proposal:  senders often send datagrams with "RF" (Report Fragmentation)
  37. bit set in the IP header.  A host receiving fragment-0 of a datagram
  38. with RF set sends an ICMP Fragmentation Occurred message.]
  39.  
  40. We then started a fairly unstructured discussion comparing the costs and
  41. benefits of the two approaches.
  42.  
  43.   1. Lifetime of protocol:  on the one hand, in principle MTU discovery
  44.      should be obviated by the coming revolution in routing protocols.
  45.      Within "a few" years, the routing protocols will provide path-MTU
  46.      information, so MTU discovery will be unnecessary.  Of course, we
  47.      all know about things that are supposed to happen "real soon now";
  48.      we particularly all know about relatively new things that
  49.      "everyone" implements.  Still, while avoiding the trap of assuming
  50.      that the world will be perfect in just a couple of years, it may
  51.      not be worth trying to solve the problem of MTU discovery for all
  52.      time, since it may not be useful for that long.
  53.   2. Rapidity of deployment:  Clearly, MTU discovery of any form only
  54.      works for a sender if some subset of the other nodes (routers
  55.  
  56.                                    1
  57.  
  58.  
  59.  
  60.  
  61.  
  62.  
  63.      and/or destinations) suport it.  Query-based schemes depend upon
  64.      support from a large fraction of the routers; RF-style schemes only
  65.      help if a large fraction of the end-hosts support it.  There was
  66.      some debate about which population is more likely to upgrade soon
  67.      (routers or end-hosts).  No consensus was reached.
  68.   3. Connection lifetimes:  Van's data suggest that most non-local TCP
  69.      connections are short (ca.  4 datagrams).  This makes some sense
  70.      (mostly SMTP) although this is only one sample point, and we agreed
  71.      that more data would be useful.  Van argued that this works against
  72.      a query-based scheme, since by the time one has useful information,
  73.      there's not much left to do with it.  His argument in favor of the
  74.      RF scheme was that the right way to use it is to assume that you
  75.      can send large datagrams (sized by your first-hop MTU, or perhaps
  76.      some estimate of the NSFNET PMTU, ca.  1500), and let the
  77.      destination tell you if you are screwing up.
  78.      In general, we realize that fragmentation is not inherently evil.
  79.      Although it might create some extra overhead for the routers, what
  80.      we really have to avoid is the "deterministic fragment loss"
  81.      problem which causes connections to stall.  Thus, (I hope I am
  82.      correctly paraphrasing Van's argument) it is only worth doing for
  83.      connections that last a while, either because they are carrying
  84.      lots of data, or because they are stalled due to fragment loss.
  85.      Query-based schemes waste router resources because processing IP
  86.      options is expensive, and the payoff is unlikely.
  87.      It was argued that, since the senders cache the MTU values learned
  88.      by either scheme in the per-host routing entries, querying would
  89.      not have to be done on every connection to be useful.  Again, Van
  90.      drew on his traffic studies to suggest that (even over a 12-hour
  91.      period) there was generally little correlation between connections
  92.      ...  that is, just because one pair of hosts makes a connection
  93.      does not mean that they will do so any time soon.  Some of us did
  94.      not believe that is necessarily true (for example, how much traffic
  95.      comes from mail-hub machines like DECWRL and UUNET?) Again, we
  96.      agreed that it would be nice to have more traffic data available.
  97.   4. Complexity:  Now that the draft specification for the query-based
  98.      scheme is done, we realized that it is a lot more complex than we
  99.      thought.  One problem is the number of tunable parameters.  Since
  100.      the RF scheme doesn't require the receiver to maintain any state
  101.      about the sender [actually, this is not quite true, as noted
  102.      later], doesn't require the sender to schedule when to send the
  103.      option, doesn't cause the receiver to send notifications when
  104.      intentional fragmentation occurs [NFS would probably not set RF],
  105.      and it requires no support at all from the routers, it appears to
  106.      be simpler [but keep reading].
  107.  
  108. After this discussion, it was pretty clear that the consensus had
  109. shifted to trying to use the RF scheme.  We made the assumption that we
  110. could get a header bit (Van argued that although the RF scheme could be
  111. done using an option, the cost/benefit analysis might be against it).
  112. The next step was to explore how well that would really work.
  113.  
  114. One problem that came up right away is that James VanBokkelen believes
  115. there to exist many PC-based systems that (1) do not reassemble
  116.  
  117.                                    2
  118.  
  119.  
  120.  
  121.  
  122.  
  123.  
  124. fragments (2) do advertise MSS values of 1500 to non-local peers
  125. Currently, these hosts function because the 576-if-nonlocal rule
  126. observed by most non-PC hosts means that, given today's Internet, even
  127. when they advertise an MTU of 1500 to a non-local host, the host at the
  128. other end will not send datagrams big enough to be fragmented.  [I
  129. suppose it is unlikely for two PCs to talk to each other over long
  130. distances.]  However, if we use the simplest RF scheme, these hosts are
  131. going to get fragmented datagrams.  Since we assume that any host which
  132. implements MTU discovery is also in conformance with the other rules
  133. (specifically, fragmentation reassembly), we therefore know that such
  134. sub-standard PCs won't send the ICMP Fragmentation Occurred message, and
  135. these connections would stall.
  136.  
  137. The obvious fix is to not invoke MTU discovery (i.e., not send segments
  138. > 576 bytes) unless you are sure that the other end supports it.  This
  139. means that you have to have seen a datagram with RF set coming back to
  140. you from the destination before you can send large datagrams.
  141.  
  142. More subtly, since we don't want to mislead these stupid PCs (which
  143. apparently don't follow the 576-byte rule in either direction) you
  144. cannot even send an MSS > 576 to a non-local peer until you have seen an
  145. RF bit from it.  Thus, since the TCP MSS option can only be sent on the
  146. SYN datagram, a host initiating a TCP connection may not be able to use
  147. MTU discovery (and large segments) unless it has talked with the other
  148. end recently.  (The second host is in a better position; since it sees
  149. the RF bit before it has to sends its own MSS option, it can set a large
  150. MSS immediately.  This is nice for FTP retrieves; it doesn't help for
  151. SMTP, alas).
  152.  
  153. The consensus was that this limitation was acceptable, since it erred on
  154. the conservative side.  (Although it errs on the case of the most common
  155. connection-type [SMTP], since SMTP connections are normally short we
  156. wouldn't gain much anyway.)  When two connections are made in quick
  157. succession, things work nicely (e.g., several mail messages, or the
  158. control connection of an FTP session followed by the data connection.
  159. The control connection will seldom carry large segments, but the
  160. exchange of RF bits done then will allow the data connection to use
  161. large segments right away.)
  162.  
  163. Mike Karels proposed (off-the-cuff, not necessarily believing that it
  164. was right) that routers fragmenting a datagram with RF set could also
  165. send the fragmentation-occurred ICMP. This seemed to create problems
  166. given the requirement for handshaking imposed by the broken-PC crowd, so
  167. Mike agreed to go off and think about this one.
  168.  
  169. One question arose about the use of a previously unused bit in the IP
  170. header:  what would current implementations do if they see it set?  (We
  171. know that we can safely add options, since by definition these are
  172. ignored if not known.)  While the IP spec says these bits must be zero,
  173. the "robustness principle" implies that routers and hosts should ignore
  174. them.  Unfortunately, John Moy from Proteon admitted that Proteon
  175. routers drop such datagrams, and Noel Chiappa says that this is true of
  176. other implementations based on his old MIT "C-gateway" code.  We have to
  177.  
  178.                                    3
  179.  
  180.  
  181.  
  182.  
  183.  
  184.  
  185. find out just how bad this is going to be; perhaps Proteon will be able
  186. to upgrade all of its customers before MTU discovery is widely
  187. implemented.
  188.  
  189. [Side note:  Clearly, implementations contrary to the basic IP spec are
  190. causing us serious grief.  How much do we twist the protocol to
  191. accomodate them?]
  192.  
  193. An orthogonal issue is that in high-speed long-distance networks, there
  194. might be lots of packets in flight when the route changes to one with a
  195. lower MTU (e.g., on a satellite link with a half-second RTT, 4kb
  196. packets, and 100 Mbit/sec channel, this means 1500 packets per RTT!)
  197. Since the source cannot react to a Fragment Occurred message sooner than
  198. one RTT worth of packets after the one that triggered the message, we
  199. are concerned that setting the RF bit on every packet could lead to
  200. positive (i.e., anti-stability) feedback in a network that is loosing
  201. capacity.
  202.  
  203. This could be attacked in two ways:  limit the rate at which the RF bit
  204. is sent, or limit the rate at which the ICMP is sent.  The former could
  205. be done "once per RTT", once per some constant time period, or perhaps
  206. once per window.  It's not clear if there is a convenient way of marking
  207. out the boundaries between windows
  208.  
  209. ACTION ITEMS
  210.  
  211.  
  212.   1. Noel Chiappa and Van Jacobson were assigned to try to get the IESG
  213.      to free up an IP header bit.
  214.   2. Mike Karels was going to think more about having routers send ICMPs
  215.      when they fragment.
  216.   3. We need to determine how many routers will drop packets with RF
  217.      set, and how hard it will be to fix this.  Is it any different if
  218.      we use one of the bits in the TOS area?
  219.   4. Ditto for end-hosts; are there any that drop such packets?
  220.   5. The Router Requirements WG was known to be considering changing the
  221.      way that fragmentation was done (fragment into equal-size pieces;
  222.      currently, routers are supposed to send N maximal-size fragments
  223.      and one smaller one).  This would make the RF scheme nearly
  224.      useless.  [Phil Almquist says that the RRWG will work with us on
  225.      this, so it shouldn't be a problem].
  226.   6. Perhaps more traffic studies would be useful.
  227.   7. Someone has to write the next draft.  Keith and Rich were thanked
  228.      for their hard work, on their draft that is now tabled, and were
  229.      not coerced into starting a different document.  Since Van was the
  230.      fiercest proponent of RF at the meeting, he was given
  231.      responsibility to see to it that the draft is written.  He agreed
  232.      but said he was going to try to get Steve Deering to do the work
  233.      (Steve was absent due to serious thesis time-pressure, so maybe Van
  234.      is going to be stuck with it.)  The chair requested a draft within
  235.      one month (7 March 1990).
  236.   8. James VanBokkelen was going to see just how many hosts out there
  237.  
  238.                                    4
  239.  
  240.  
  241.  
  242.  
  243.  
  244.  
  245.      are unable to reassemble fragmented IPs, how hard it would be to
  246.      fix this, how many vendors are involved, etc.
  247.  
  248.  
  249. IESG ACTION
  250.  
  251. On Thursday, February 8, at the open IESG meeting, the IESG was asked to
  252. allow this bit to be used for MTU discovery.  I was not there, but I
  253. understand that the IESG is willing to release this bit if we come to a
  254. consensus on a protocol that they think is reasonable.
  255.  
  256. SCHEDULE
  257.  
  258. We expect to meet again at the May IETF meeting.
  259.  
  260. At that point, we will probably either adopt one of the schemes, or give
  261. up.
  262.  
  263.  
  264.  
  265.                                    5
  266.  
  267.  
  268.  
  269.  
  270.  
  271.  
  272. ATTENDEES
  273.  
  274.     Ballard Bare             bare%hprnd@hplabs.hp.com
  275.     Art Berggreen            art@sage.acc.com
  276.     Richard Bosch            probe@mit.edu
  277.     Ron Broersma             ron@nosc.mil
  278.     John Cavanaugh           John.Cavanaugh@StPaul.ncr.com
  279.     Noel Chiappa             jnc@LCS.MIT.EDU
  280.     James Davin              jrd@ptt.lcs.mit.edu
  281.     Farokh Deboo             sun!iruucp!ntrlink!fjd
  282.     Rich Fox                 sytek!rfox@sun.com
  283.     Van Jacobson             van@lbl-csam.arpa
  284.     Mike Karels              karels@berkeley.edu
  285.     Mike Marcinkevicz        mdm@gumby.dsd.trw.com
  286.     Tony Mason               mason@transarc.com
  287.     Keith McCloghrie         sytek!kzm@hplabs.HP.COM
  288.     Bill Melohn              melohn@sun.com
  289.     Jeff Mogul               mogul@decwrl.dec.com
  290.     John Moy                 jmoy@proteon.com
  291.     Drew Perkins             ddp@andrew.cmu.edu
  292.     Michael Petry            petry@trantor.umd.edu
  293.     Nuggehalli Pradeep       pradeep@orville.nas.nasa.gov
  294.     Mark Rosenstein          mar@athena.mit.edu
  295.     Tony Staw                staw@marvin.enet.dec.com
  296.     James VanBokkelen        jbvb@ftp.com
  297.     John Veizades            veizades@apple.com
  298.     Steve Willis             swillis@wellfleet.com
  299.     John Wobus               JMWobus@suvm.acs.syr.edu
  300.     David Zimmerman          dpz@convex.com
  301.  
  302.  
  303.  
  304.                                    6
  305.